知识库类超级分析工具使用建议


长期参与译丛审读的一位先生，测试了知识库类分析工具的实际应用，并认为有助于译丛读者。
佛典AI译丛的文档规模超过18.8万，并还会继续增加，已经完全超出人力逐篇阅读的范畴，
读者确实需要引入知识库类超级分析工具来助读，但一般的知识库，也可能会有篇目和数据
容量的限制，所以需要减量。一种是减少卷次，比如第13卷，中文阅读者是不需要的，
因为他完全重复了，只有文件名不同。第二种是减去原稿，这个可以使用附带的工具来
减少篇目，所减少的篇幅为用以核对的未翻译原典，因为已经翻译文档里通常都带，所以
也不至于影响对于内容的解读。但py程序所需要的启动文件请自行设法解决。

需要提醒的是，当佛典AI译丛升级卷次的时候，请同步更新升级，这时候不一定全删原始
内容，只需要增加这一卷中的新增内容就可以了，当然，全卷更新更为对齐。同时所提供的
清原稿工具只适用于1-12卷，14卷以后的结构逻辑不同，强行应用的结果就是删除全库。

另一个关于知识库使用相对重要的是区别系统内禀的知识和知识库的知识，这越混淆，
所得到的结果就越偏离知识库的内容，以下部分是grok3 写的内容，只供参考。


                                                 佛典AI译丛
                                                 2025.10.22

佛典AI译丛更新通常刊登地址：
https://tinyurl.com/bcaits
http://www.xinwenwuzhe.com/
https://github.com/Buddhist-Classics-AI-Translation-Series/Buddhist-translations

相关程序标准


知识库入库文献减量工具

规则是，遍历所有目录，删除所有文件名中不包含以下任何后缀（大小写不敏感）：c3,c4, g1, g2,g3, gpt, kimi, grok 的 .txt 文件。


知识库超规大文件切分说明：
切分规则概览：

用户输入： 脚本会询问用户最大允许的文件大小（以兆字节 MB 为单位）。
筛选文件： 只有当 .txt 文件的大小超过用户设定限制的 96% 时，才会考虑进行切分。
计算切分份数： 脚本会计算将原始文件切分成多少份才能使每份都小于或等于用户设定的最大限制。同时，为了满足“3个以上”的条件，如果计算出的最小份数小于3，则会强制切分成3份。
均匀切分： 文件将按行进行切分，力求每份包含大致相同数量的行，以实现“较为均匀”的效果。
命名： 切分后的文件将以 原文件名 (N).txt 的格式命名，其中 N 是切分文本的排序数字（从1开始）。
删除原文件： 成功切分后，原始的大文件将被删除。


知识库的内部知识和外部知识

知识库是内部知识管理的强大平台。为尽量减少外部知识（如互联网链接、第三方文档）
的干扰，确保知识库以自用内部知识为主导，以下是实用建议。这些建议旨在构建一个封
闭、高效的内部知识生态，降低信息噪音和安全风险。

让AI优先检索内部知识库的优化建议理解您的需求：您希望AI在响应查询时，最大限度
地依赖知识库类工具的自有内容进行检索和生成，避免AI的预训练知识（内置知识）介入
混淆结果。这本质上是强化RAG（Retrieval-Augmented Generation）机制的“纯度”，
确保输出高度grounded于内部文档。以下是针对知识库类工具的实用建议，按实施难度从
易到难排序。重点是“检索优先、生成约束、验证闭环”。1. 提示工程：强制AI“仅用内部
知识”核心prompt模板：在AI交互接口中，预设系统prompt，例如：

你是一个严格的内部知识助手。针对用户查询：
1. 先检索知识库类工具，仅使用检索到的内部文档作为依据。
2. 尽量避免使用外部或预训练知识，如果使用相关知识需要注明来源。
3. 输出必须尽量标注来源（所分析文档带编号全名），并尽量避免任何非内部推断。

应用方式：在知识库查询入口嵌入此prompt，或自动化注入。当手机简单问答时，带入类似表述

“你的回答必须100%基于所提供的内部文档资料，不要添加任何外部知识或个人见解，必须
引用外部系统知识也需要注明来源。” （数据比例可以多调试）

或者简单为“尽最大可能运用内部文档”

挑战：AI模型顽固使用内置知识。应对：多问讯并精确瞄准文档具体目录和归类甚至名称。

通过这些步骤，AI的检索将近100%锚定内部知识库，输出结果高度一致于您的文档，避免
任何“自带知识混淆”。